我们通过使用提供各种信息的远程服务对恶意Web域进行分类的现实问题来激励我们的研究。至关重要的是,可以将其中的某些信息进一步分为一定深度,并且此过程顺序创建了层次结构化的多种现实数据树。发送到远程服务的每个请求都与成本(例如,时间或其他请求的其他费用)相关联,目的是最大程度地提高准确性,并以预算约束。我们提出了一个通用框架,能够处理一系列类似问题。我们的方法基于具有昂贵的特征(CWCF),分层多样性学习(HMIL)和动作空间的层次分解的分类。它与描述为各种特征的部分特征(类似于JSON/XML文件)的样本一起使用,该树可以用复杂的结构对数据进行建模。该过程被建模为马尔可夫决策过程(MDP),其中一个状态代表获得的功能,而动作选择但未知的功能。该政策经过深入的强化学习培训,我们通过现实世界和合成数据来演示我们的方法。
translated by 谷歌翻译